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随 着 人 工 智 能 的 兴起 与 信息 技术 的 不 断 发 展 ， 自 动 化 、 智 能 化 已 经 是 工业 界 
生产 革命 的 必然 方向 。 针对 传统 PET 瓶 生产 线 存在 的 检测 问题 , 提出 了 一 种 新 颖 
的 ， 实 用 性 极 高 的 自动 化 架构 ， 结 合 现 有 的 实验 室 条 件 搭建 了 测试 平台 。 

在 视觉 的 实现 方面 ， 使 用 YOLOV5 算法 ， 通 过 自主 收集 PET 瓶 、 制 作 标 签 


获得 样本 集 。 训 练 用 样本 总 数 为 1070， 其 中 测试 集 数目 107， 训 练 集 数 目 963。 


2 视觉 模型 一 一 YOLO 算法 


视觉 检测 部 分 是 自动 化 生产 线 中 的 关键 环节 , 目的 是 正确 且 高 速 地 识别 出 待 
检 PET 瓶 的 生产 质量 。 较为 常用 目标 检测 方法 有 模板 匹配 法 、R-CNN 算法 、Fast 
R-CNN 算法 、YOLO 算法 、SSD 算法 等 。 由 于 本 文 研究 的 是 一 个 工业 生产 领域 
的 实际 运用 , 对 生产 效率 有 其 内 在 要 求 , 因此 选择 YOLO 算法 作为 视觉 检测 算法 ， 
其 快速 高 效 的 特点 十 分 契合 现代 化 工业 生产 。 

YOLO 全 称 为 You Only Look Once， 是 Joseph Redmon 于 2015 年 提出 的 一 


种 目标 检测 框架 。 相 对 于 最 为 经 典 的 RCNN 系列 算法 ，YOLO 算法 以 其 独特 的 方 


式 处 理 目标 检测 : 通过 将 整个 图 像 放 在 一 个 实例 中 , 并 预测 这 些 框 的 边界 框 坐标 


和 及 所 属 类 别 概率 。 它 的 最 大 特点 正如 其 名 : 把 目标 检测 当做 一 个 单一 的 回归 任 


求 


因此 拥有 极 快 的 响应 速度 ， 受 到 工业 界 欢迎 。 
最 初 的 YOLOV1 是 将 416x416x416 的 图 片 ， 分 成 7x7x7 的 网 格 ， 最 终 预 
测 的 是 一 个 长 度 为 Sx(Bx5+C) 的 向 量 ， 其 中 S=7,B=2,C 是 预测 的 类 别 数 。 

YOLOV2 对 一 代 进 行 了 小 改进 ， 作 者 参考 了 使 用 多 尺度 的 特征 图 做 检测 的 
SSD， 提 出 了 pass through 层 从 而 实现 多 尺度 检测 。 和 V1 相 比 ， 在 使 用 
Fine-Grained Features 时 ，YOLOV2 的 性 能 提升 了 1%。YOLOV3 是 在 当时 fpn 兴 
起 的 背景 下 产生 的 ， 因 为 小 目标 经 过 多 层 卷 积 之 后 可 能 会 丢失 特征 或 变 得 微小 ， 
所 以 考虑 将 浅 层 和 深层 特征 组 合 在 一 起 ， 从 而 获得 表层 特征 和 语义 特征 ， 这 种 方 
法 在 YOLOV3 中 表现 出 良好 的 性 能 。 

YOLOV4 的 大 体 框 架 基 于 V3， 且 在 先 版 本 的 基础 上 采取 了 一 些 改进 ， 例 如 
在 CSPDaknet53 上 添加 SPP 块 .使 用 PANet 取代 YOLOV3 中 的 FPN 进行 参数 聚 
合 等 等 。 除 了 改进 骨干 网 络 ，YOLOV4 在 数据 增强 方面 进行 了 创新 ， 例 如 引入 了 
Mosaic 和 Mixup 等 方法 。Mosaic 是 将 四 张 图 片 拼 接 成 一 张 图 用 于 目标 检测 ， 
Mixup 则 是 将 两 个 图 像 相 加 ， 这 两 种 方法 具有 背景 信息 丰富 的 优点 ， 可 以 有 助 于 
对 象 检测 。 此 外 ， 在 neck 方面 ， 它 使 用 了 PANet 的 方法 ， 不 仅 采 用 了 两 次 上 采 
样 concat 的 方式 ， 还 在 此 基础 上 使 用 了 两 次 下 采样 ， 以 更 有 效 地 融合 特征 。 

YOLO 算法 的 核心 思想 是 利用 整 张 图 片 作为 网 络 输入 ， 并 直接 在 输出 层 回归 
bounding box 的 位 置 和 所 属 类 别 。 

首先 ，YOLO 的 CNN 网 络 将 输入 的 图 片 分 割 成 SxS 网 格 ， 每 个 单元 格 预测 
B 个 边界 框 及 其 置信 度 Pr(object) 。 其 准确 度 记 为 OU 了 ， 也 就 是 实际 框 与 
预测 框 的 交 并 比 。 因 此 将 置信 度 定 义 为 : 


Truth = Pr(object) x TOUr™ih 


pred 


边界 框 的 位 置 与 大 小 用 (X,y, w, 来 记录 ， 其 中 (X Y) 代 表 边 界 框 的 中 心 坐 
标 (相对 于 每 个 单元 格 左上 角 坐 标点 )，w 和 h 则 分 别 代 表 边界 框 宽 和 长 (相对 
值 )，4 个 元 素 的 大 小 都 应 该 保持 在 0-1 的 范围 内 。 最 后 可 以 用 (X,y, w, h, c) 来 


表征 边界 框 的 预测 值 ，c 代表 置信 度 。 


特别 的 , 在 分 类 问题 中 边界 框 的 每 个 单元 格 其 要 给 出 预测 的 C 个 类 别 概率 值 ， 
记 为 Pr(classilobject)， 则 各 个 边界 框 类 别 置信 和 度 为 : 
Pr(classi|object) x Pr(object) x Dr 三 XPr(classi) x FOU 


YOLO 使 用 了 卷 积 网 络 模型 进行 特征 值 提取 ， 其 卷 积 层 数 为 24、 全 连接 层 数 
为 2。 它 主要 使 用 1 x 1 卷 积 紧 跟 3 x 3 卷 积 作为 全 连接 层 。 对 于 卷 积 层 和 全 连 
接 层 ， 采 用 激活 函数 max(X, 0.1x) ， 最 后 一 层 采 则 用 线性 激活 函数 。 

对 于 loss 函数 ，yolo 的 设 定 如 下 : 
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公式 的 第 一 项 代表 边界 框 中 心 坐 标的 误差 项 ，11 1 指 的 是 第 i 个 单元 格 存在 
目标 ， 且 该 单元 格 中 的 第 j 个 边界 框 负责 预测 该 目标 ; 公式 的 第 二 项 是 边界 框 的 
高 与 宽 的 误差 项 ; 第 三 项 是 包含 目标 的 边界 框 的 置信 度 误差 项 ; 第 四 项 是 不 包含 
目标 的 边界 框 的 置信 度 误差 项 ; 最 后 一 项 则 是 包含 目标 的 单元 格 的 分 类 误差 


项 ， 159 指 的 是 第 个 单元 格 存在 目标 ; 对 于 置信 度 值 Ci， 一 般 取 为 1。 

在 实现 预测 时 候 ， 可 能 会 出 现 多 个 预测 值 ， 这 时 候 就 要 使 用 非 极 大 值 抑制 算 
法 选 出 最 后 结果 。 论 文 最 后 选择 使 用 yolov5 版 本 完成 视觉 部 分 ， 其 结构 框图 1 
所 示 。 
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1 YOLOV5 结构 
3 检测 样本 预 处 理 


将 采集 所 得 图 片 使 用 labelimg 进行 标注 , 划分 了 5 种 标注 样本 :Label_have， 
Label loss，Label_broken，Cap_ture，Cap false， 分 别 对 应 贴 标 存 在 ， 贴 标 缺 失 ， 
贴 标 破损 ， 瓶 盖 正 常 ， 缺 失 瓶 盖 。 

在 完成 了 样本 收集 和 数据 标注 之 后 ， 得 到 了 1070 个 xml 格式 的 样式 文件 ， 
进行 预 处 理 。 

(1) 将 文件 的 重 命名 ， 标 签 和 图 片 需要 按照 一 定 的 格式 顺序 进行 命名 。 


@echo off&setlocal EnableDelayedExpansion 

set a=1 

for /f "delims=" %%i in (dir /b *.jpg) do ( 

if not "%%~ni"=="%~nO" ( 

if 1a! LSS 10 (ren "%%i" "yb00!aljpg" else if !a! LSS 100 (ren "%%i" "ybO!a!,jpg" ) else ren "%%i" "yb!a!jpg" 
set/a a+=1 


) 
) 
2 命名 代码 


(2) 标签 格式 的 转换 


<annotation> 
<folder>JPEGImages</folder> 
<filename>sp006jpg</filename> 
<path>FAN 同 步 空间 \ 毕 业 设计 \ 代 得 \WVOC2007WPEGImages\sp006jpg</pat 
<soUrce> 
<database> Unknown</database> 
<fsource> 


<size> 司 sp008,txt - 记事 本 

<width>500</width> 

er 文件 日 ” 编 回 (日 ”格式 (O) 查看 V) 
RE 0 0.504 0.244 0.1 68 0.1 8 
Se 3 0.503 0.533 0.326 0.758 


<name>Cap ture</name> 
<pose>Unspecified</pose> 
<truncated>0</truncated> 
<difficult>0</difficult> 
<bndbox> 
<xmin>131</xmin> 


图 3 转换 前 的 xml 格式 ( 左 ) 与 转换 后 的 txt 格式 〈 右 ) 


(3) Yolov5 需 将 数据 划分 为 训练 集 和 测试 集 ， 本 文采 用 均匀 分 布 方式 抽样 ， 
划分 训练 集 与 测试 集 的 比 列 为 9 : 1。 最 终 样本 的 使 用 情况 为 : 测试 集 107 个 ， 
训练 集 963 个 。 
4 模型 训练 与 效果 
综合 考虑 性 能 和 训练 时 间 之 后 ， 选 择 YOLOV5s.pt 作为 预 训练 权重 以 保证 模 
型 的 检测 精度 和 检测 速度 。 
编写 yb.yam| 文件 , 令 其 中 nc=2, names: ['Cap_ture', 'Cap_false', 'Label_have,, 


'Label_loss', 'Label_broken' ]。 选 定 训练 轮 次 300。 


参数 
models 
resume 
workers 
epochs 
batch-size 
nc 
multi-scale 
save-period 


optimizer 


计算 训练 结果 的 各 项 数学 指标 ， 并 生成 图 像 一 一 罗列 。 

4 是 训练 结果 的 F1 分 数 与 置信 度 的 关系 图 。F1 分 数 是 分 类 的 一 个 衡量 标 
准 ， 是 精确 率 和 召回 率 的 调和 平均 数 ， 介 于 0-1 之 间 。 一 般 来 说 ， 置 信 度 阔 值 较 
低 的 时 候 ， 很 多 置信 度 低 的 样本 被 认为 是 真 ， 召 回 率 高 ， 精 确 率 低 ; 置信 度 阐 值 
较 高 的 时 候 ， 置 信 度 高 的 样本 才能 被 认为 是 真 ， 因 此 检测 越 准 确 ， 精 准 率 所 在 前 
后 两 头 的 F1 分 数 比 较 少 。 可 以 看 到 图 中 F1 曲线 很 “宽敞 ” 且 顶 部 接近 1， 说 明 
在 训练 数据 集 上 表现 得 很 好 ( 既 能 很 好 地 查 全 ， 也 能 很 好 地 查 准 ) 的 置信 度 阔 值 


区 间 很 大 。 


表 1 训练 参数 


value 
yolo5s.yaml 
Ture 
6 
300 
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SGD 


momentum 
warmup_epochs 
warmup_bias |r 
hsv_h 
flipud 
fliplr 


anchor t 


0.015 
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Cap false 
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Label_loss 

Label_broken 

all classes 0.84 at 0.491 
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4 F1-Confidence 曲线 
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5 中 心 点 横 纵 坐 标 以 及 框 的 尺寸 关系 


图 5 是 标签 框 中 心 点 坐标 与 框 尺寸 关系 图 。 最 上 面 的 图 表明 中 心 点 横 坐 标 x 
的 分 布 情况 ， 可 以 看 到 大 部 分 集中 在 整 幅 图 的 中 心 位 置 ; 第 一 行 图 表明 中 心 点 纵 
坐标 y 的 分 布 情况 ， 显 然 大 部 分 点 集中 在 整 幅 图 的 中 心 位 置 ; 第 二 行 图 表明 框 的 
宽 的 分 布 情况 ， 本 此 训练 结果 框 的 宽度 普遍 小 于 整 幅 图 宽 的 一 半 ;最 后 一 行 图 表 
明 框 的 高 的 分 布 情况 ， 可 以 看 到 框 的 高 度 普遍 小 于 整 幅 图 的 高 的 一 半 。 
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图 6 单一 识别 精 确 度 
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图 6 和 图 7 分 别 显示 的 是 各 个 标签 的 单一 识别 精确 度 Precision 和 单一 类 召 
回 率 Recall。Precision 衡量 的 是 一 个 分 类 器 分 出 来 的 正 类 的 确 是 正 类 的 概率 ， 
其 计算 公式 为 : 


i TP 
Precision = TP FEFP 
公式 中 分 子 代 表 找 对 的 正 类 ， 分 母 代 表 判 断 为 正 的 所 有 样本 。 
Recall 代表 召回 率 ， 其 计算 公式 为 : 要 (3-5) 
Recall = TEATEN 


由 上 图 可 以 看 出 Precision 保持 在 0.9 以 上 ，Recall 保持 在 0 附近 。 
最 后 的 轮 次 训练 结果 图 如 8 所 示 。 


Box Objectness Classification Precision Recall 
0.05 
0.10 一 一 results 
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004 0.8 0.8 
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0.05 
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0.04 BD 
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图 8 各 指标 与 轮 次 关系 图 


图 中 Box 为 损失 函数 均值 ， 可 以 看 出 其 在 200 轮 左右 已 经 达到 了 理想 状态 ， 
280 轮 时 曲线 趋势 放 缓 ， 已 经 接近 0。 

最 后 两 张 图 是 用 精确 度 和 召回 率 两 轴 作 图 ，m 表示 平均 ，@ 是 标志 位 ， 跟 随 
的 数字 位 阐 值 ， 作 用 是 判定 iou 为 正 负 样本 。 例 如 ，@0.5:0.95 表示 阅 值 取 
0.5:0.05:0.95 后 取 均 值 。 

在 进行 训练 指标 分 析 之 后 ， 还 需要 进行 实际 样本 检验 。 针 对 5 种 指标 ， 本 文 
分 别 使 用 实物 样本 和 网 络 图 片 进行 实际 检验 ， 检 验 结 果 见 表 2。 


表 2 实物 检验 结果 


标签 名 称 标签 数目 监测 出 的 标签 数 成 功率 
Cap_false 24 34 100% 
Cap_true 77 77 100% 
Label_lose 12 12 100% 
Label_broken 33 31 93.7% 
Label_have 89 89 100% 


可 以 看 出 , 除了 Label_broken, 也 就 是 破损 缺陷 有 少数 没有 检测 出 来 以 外 ， 
其 余 特征 的 检测 成 功率 均 为 .00%， 没 有 漏 检 。 
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图 9 网 络 图 片 效果 检验 ( 左 ) 和 实物 图 片 效 果 检 验 ( 右 ) 
5 结论 
在 视觉 的 实现 方面 ， 使 用 YOLOYV5 算法 ， 通 过 自主 收集 PET 瓶 、 制 作 标签 获 
得 样本 集 。 训 练 用 样本 总 数 为 1070， 其 中 测试 集 数 目 107， 训 练 集 数 目 963 ; 在 
模型 训练 后 的 下 一 步 是 指标 检测 与 实物 样本 检测 , 其 中 指标 检测 的 精准 度 和 召回 


率 都 达到 了 0.9，Ioss 均值 与 分 类 loss 均值 均 接近 于 0 ; 实物 样本 检测 的 最 低 精 


确 度 为 93.7%， 部 分 检验 准确 率 达到 了 100%， 两 种 检测 都 取得 了 很 好 的 效果 。 


